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<§) Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen 

(g) Durch Anwendung von drei verschiedenartig arbeitenden 
Computer-Programmen oder Algorithmen zur optischen 
Zeichenerkennung (OCR) auf eine Textvorlage mit anschlie- 
Bendem zeichenwetsen Vergleich der Resultate, wobei im 
Falle von Unterschieden zwischen den drei Resultaten das in 
den Ausgabetext zu ubernehmende Zeichen durch 2 - 
1-Abstimmung gefunden wird, ergibt sich eine insgesamt 
hohere Wiedererkennungsrate von gedruckten Texten durch 
Computer-Programme und damit ein geringerer Aufwand 
bei eventueller manueller Nachkorrektur. 
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Stand der Technik 

Es sind verschiedene Verfahren zum Erkennen von 
Texten aus Bildvorlagen mit Hilfe von EDV-Anlagen 
bekannL Ihnen ist gemeinsam, daB auf die aus Punktmu- 
stern bestehenden Buchstaben der Bildvorlage ein Al- 
gorithmic angewendet wird, urn aus diesen Punktmu- 
stem den zugeordneten Buchstaben mit moglichst gro- 
Ber Sicherheit zu bestimmen. 

Das Grundproblem bei der Bestimmung der in 
Druckvorlage enthaltenen Zeichen besteht darin, daB 
grundsatzlich eine Ahnlichkeitsbestimmung der Punkt- 
muster nach vorzugebenden Kriterien durchgefuhrt 
werden muB, da auch bei qualitativ hochwertigen Vorla- 
gen alle in der Vorlage vorhandencn Buchstaben ver- 
schiedene Punktmuster in der Bilddatei ergeben. 

Die Aufgabe von OCR- Verfahren ist es gleichzeitig, 
die Erkennung einer Vielfalt von Schriftarten (moglichst 
simultan) zu ermoglichen, so daB bei einem gegebenen 
Punktmuster kein eindeutiger Bezug auf vorgegebene 
Muster moglich ist. 

Dieser Umstand verhindert eine exakte Erkennung 
des Originaltextes mit 100%iger Erkennungssicherheit 
und damit auch ein eindeutiges Vorgehen bei der opti- 
schen Texterkennung. 

Aus dieser Tatsache heraus sind viele verschiedene 
Verfahren zur optischen Texterkennung mittels Softwa- 
re entwickelt worden, die alle unterschiedliche Charak- 
teristika bei der Erkennung aufweisen. 

Der Ahnlichkeitsgrad, den der jeweilige Algorithmus 
ausgibt, ist damit auch von diesem abhangig und gibt 
nur eine relative Ahnlichkeit bezogen auf die jeweils 
verwendeten Vergleichskriterien an. 

Unter den existierenden Verfahren befinden sich hy- 
bride Verfahren, die versuchen, ein Punktmuster mit 
Hilfe eines Algorithmus zu identifizieren und die im 
Falle einer zu geringen Wiedererkennungssicherheit 
(die ja nur relativ angegeben werden kann) weitere Er- 
kennungsalgorithmen zur Entscheidungsfindung heran- 
zuziehen. 

Aufgabe 

Aufgabe der Erfindung ist es, ein Verfahren vorzu- 
schlagen, das eine Reproduzierung von gedruckten Tex- 
ten in EDV-Anlagen mittels Software mit groBerer Ge- 
nauigkeit (gemeint ist die prozentuale Obereinstim- 
mung des reproduzierten Textes bezogen auf die ge- 
druckte Textvorlage) als bisher ublich ermoglicht. 



Verfahren 



zwei gleichen Textstellen dem Originaltext entsprechen. 
Die beim dritten ProzeB entstandene zu den beiden an- 
deren Textstellen verschiedene Textstelle wird verwor- 
fen. 

5 Ein derartiges Vorgehen ist nur bei mindestens drei 
und einer ungeraden Anzahl von OCR-Resultaten mog- 
lich. Es wird dabei implizit eine gleich groBe Erken- 
nungssicherheit aller drei Erkennungs-Methoden ange- 
nommeiL 

io Der Vorteil des vorgeschlagenen Verfahrens besteht 
darin, daB auf jedes Punktmuster drei verschiedene Be- 
wertungskriterien angewendet werden. Falls dann ein 
Kriterium aufgrund der problembedingten relativen 
Genauigkeit einen falschen Buchstaben vorhergesagt, 
15 zeigt die Erfahrung, daB in den meisten solcher Falle die 
beiden anderen Kriterien die "richtige" Vorhersage tref- 
fen, bei der anschlieBenden Synthese wird dann auch bei 
der 2 : 1 Abstimmung das "richtige" Zeichen geliefert 
Zusatzlich kann an Textstellen, an denen alle drei Ver- 
20 fahren unterschiedliche Angabe machen, mit hoherer 
Sicherheit als bei Verwendung eines Verfahrens davon 
ausgegangen werden, daB in der Original-Vorlage die 
entsprechende Stelle fiir OCR-Automaten nicht erkenn- 
bar war, z. B. durch Verschmutzung, Ungenauigkeiten 
25 imDruck,etc 

Jm Gegensatz dazu stehen die o. g. hybriden Verfah- 
ren, die aus Grunden der Rechenzeitersparnis ein be- 
stimmtes Verfahren primar einsetzen und weitere Ver- 
fahren zur Erkennung eines bestimmten Musters nur 
30 dann, falls der primare Algorithmus eine geringe Wie- 
dererkennungssicherheit angibt. 

Differieren alle drei OCR-Resultate an einer be- 
stimmten Stelle, wird ein Vorgehen entsprechend der 
Unteranspruche 2 ... 5 vorgeschlagen. 
35 Urn drei OCR- Ausgabetexte synchron vergleichen zu 
konnen, wird ein als Computerprogramm realisierter 
Algorithmus verwendet, der jeden OCR-Text mit den 
beiden jeweils anderen Texten zeichenweise vergleicht 
und an den Positionen, an denen die beiden jeweils ver- 
40 glichenen Texte einen Unterschied aufweisen, gleichzei- 
tig die Differenztexte bestimmt und eine Resynchroni- 
sation erreicht, z. B. falls der Textunterschied in zusatzli- 
chen (oder fehlenden) Buchstaben besteht. 

Dabei wird ein wiederholtes versuchsweise gleichzei- 
45 tiges Entfernen von Zeichenketten variierender Lange 
aus den beiden zu vergleichenden Texten ab der Posi- 
tion des ersten verschiedenen Zeichens und Speichem 
a) der Zeichenketten und b) der dadurch erzielten Ober- 
einstimmung der Texte ab der Verschiebungsposition 
so vorgenommen, bei anschlieBender Auswahl derjenigen 
zwei versuchsweise entfernten Zeichenketten, die eine 
maximale Obereinstimmung der restlichen Texte zur 
Folge haben. 
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Die Grundidee des Verfahrens beruht auf der gleich- 
zeitigen Anwendung von drei moglichst verschiedenar- 
tig gestaketen Erkennungsprozessen auf eine Textvor- 
lage. Mit verschiedenartig gestaltet ist gemeint, daB sich 
die drei Erkennungsprozesse durch den Erkennungsal- 60 
gorithmus und/oder die programmtechnische Ausfuh- 
rung des Algorithmus und/oder die fur den Algorithmus 
notwendigen Hilfsparameter unterscheiden mussen. 

Bei einem anschlieBenden synchronisierten Vergleich 
der gelieferten Ausgaben wird aufgrund des Vorhan- ^ 
denseins von drei OCR-Resultaten an jenen Stellen, an 
denen eine OCR-Ausgabe von den beiden anderen 
OCR-Ausgaben verschieden ist, angenommen. daB die 



Patentanspruche 

1. Verfahren zum verbesserten Erkennen von ge- 
druckten Schriftzeichen mit Hilfe von in EDV-An- 
lagen ablaufenden Computer-Programmen und 
Ubertragung der Schriftzeichen in eine in EDV- 
Anlagen iibliche Reprasentation von Texten (z. B. 
ADCII), gekennzeichnet durch die gleichzeitige 
Verwendung von drei verschiedenen Programmen 
oder Algorithmen zur optischen Zeichenerkennung 
(optical character recognition OCR) und synchro- 
nem Zusammenfuhren der drei dadurch erhaltenen 
Texte zu einem Text, dergestalt, daB an solchen 
Textstellen, an denen sich die drei OCR-Vorlagen 
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unterscheiden, ein als Computerprogramm reali- 
siertes Verfahren angewendet wird, das aufgrund 
des Vorhandenseins von drei Textvorlagen den in 
den Ausgabetext zu ubernehmenden Textteil be- 
stimmt 5 

2. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, dafi mehr als 3 verschiedene OCR- Ver- 
fahren auf eine Druckvorlage angewendet werden 
und das die entsprechende Anzahl von OCR-Aus- 
gabetexten zu einem Resultat-Text zusammenge- io 
fuhrt wird. 

3. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB beim ZusammenfOhren der Texte an 
denjenigen Positionen, an denen alle drei Texte 
voneinander abweichen, zusatzliche OCR-Verfah- 15 
ren zur Bestimmung des Ausgabetextes aufgerufen 
werden. 

4. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, dafi beim ZusammenfOhren der Texte an 
solchen Positionen, an denen alle drei Texte Von- 20 
einander abweichen, die Moglichkeit der manuellen 
Texteingabe und sonstiger Einflufinahme auf das 
weitere Programmverhalten gegeben ist 

5. Verfahren nach Anspruch 4, dadurch gekenn- 
zeichnet, dafi nach manueller Texteingabe eine er- 25 
neute Synchronisation der drei durch OCR- Verfah- 
ren erhaltenen Texte durchgefuhrt wird. 

6. Verfahren nach Anspruch 4, dadurch gekenn- 
zeichnet, dafi eine evtl. manuelle Nachkorrektur 
erst nach vollstandigem ZusammenfOhren der drei 30 
OCR-Resultate bei vorlaufiger Auslassung der fur 
manuelle Korrektur vorgemerkten Textstellen 
durchgefuhrt wird. 
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